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一 类 新 的 记忆 梯度 法 及 其 收敛 性 * 


汤 京 永 2， 和 董 丽 ! 
(1- 信阳 师范 学 院 数学 与 信息 科学 学 院 ， 信 阳 464000; 2- 上 海 交通 大 学 数学 系 ， 上 海 200240) 
摘 要 : 本 文 着 重 研究 求解 无 约束 优化 问题 的 记忆 梯度 法 ， 利 用 当前 和 前 面 一 步 迭 代 点 的 信息 产生 下 降 方 
向 ， 采 用 Armijo 线 性 搜索 确定 步 长 ， 得 到 了 一 类 新 的 无 约束 优化 算法 。 新 算法 在 较 弱 的 条 件 下 
具有 全 局 收敛 性 和 线性 收敛 速率 ， 并 且 不 用 计算 和 存储 矩阵 ， 适 于 求解 大 规模 优化 问题 。 数 值 试 
验 表明 算法 是 有 效 的 。 
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考虑 无 约束 优化 问题 
min f(x), zc€R", (1) 


其 中 R 是 n 维 欧 氏 空间 ，f(z) : R^ — RAER, ga) 为 其 梯度 。 求 解 问题 (1) 的 
算法 主要 是 迭代 法 ， 基 本 结构 为 


Tk+41 = Tk + Qkdk, 


其 中 di 为 搜索 方向 ，ak 为 步 长 参数 。 对 ax 和 di 的 不 同 选择 就 构成 了 不 同 的 迭代 法 和 由。 在 本 
XP, H rr 为 当前 迭代 点 ， 则 简 记 g(zx) 为 gg，f(Zk) 为 及 ，f(7Z*) 为 f*。 

共 辆 梯度 法 在 每 步 迭 代 中 不 需 计 算 和 存储 和 矩阵， 是 求解 大 型 无 约束 优化 问题 的 有 效 算 法 之 
一 。 记 忆 梯 度 法 类 似 于 共 轿 梯度 法 ， 也 是 求解 大 规模 优化 问题 的 有 效 方法 ， 并 且 与 共 轿 梯 度 法 
相 比 ， 记 忆 梯 度 法 增加 了 参数 选择 的 自由 度 ， 更 有 利于 构造 稳定 的 快速 收敛 算法 Pa。 

本 文 提 出 一 类 新 的 求解 无 约束 优化 问题 的 记忆 梯度 法 ， 算 法 利用 当前 和 前 面 一 步 迭 代 点 的 
信息 以 及 Armijo 步 长 规则 产生 新 的 迭代 点 ， 结 构 简 单 ， 不 用 计算 和 存储 矩阵 ， 适 于 求解 大 规 
模 优化 问题 。 与 文献 [5-8] 中 的 算法 相 比 ， 新 算法 有 下 面 三 个 优点 : 一 是 假设 条 件 较 弱 ， 扩 大 了 
算法 求解 问题 的 范围 ， 二 是 在 较 弱 的 条 件 下 具有 全 局 收敛 性 和 线性 收敛 速率 ， 三 是 具有 较 好 的 
数值 试验 结果 。 


2 ”记忆 梯度 法 及 其 性 质 


本 文 作 如 下 假设 : 
(Hi) 目标 函数 f(z) 在 水 平 集 Lo = {x € R"|f(z) < f(z1)} 上 有 下 界 。 
(Ho) 梯度 函数 g(z) 在 包含 Lo 的 开 凸 集 已 上 一 致 连续 。 
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算法 1 取 n€ (3,1), p€ (0,1), 8€(01) t1 € R". $k:=1. 
步骤 1 车 jw = 0， 则 停止 迭代 ; 否则 ， 转 步 又 2。 
步骤 2 计算 dip， 使 其 满足 


“Ik, k= 1, 
di = (2) 
—9k 十 BkÓk—1, k 之 2, 


其 中 6k-1 = dk-1 一 gk-1， 而 


0, X dk_1 = gk-1， 
bk = (3) 
wies, E dk-1 gk 


步骤 3 Tk+1 = Tk +Qkdk» 其 中 Qk 由 Armijo 搜索 准则 确定 ， 即 要 求 ak 为 全,B,B2,…} 中 
满足 下 式 的 最 大 者 
f (zx) — f(zi + adk) > —pagi dy. (4) 


步骤 4 令 大 := 大 二 1， 转 步骤 1。 

引 理 1 对 任意 的 k > 1， 有 一 g7 dx > (1—9)lo«l?- 
注 ”由 引 理 1 及 (4) XOT An ( f.) 单调 不 增生 zk € Lo. 
引 理 2 ”对 任意 的 &k > ld < (1 + 9)glle 


3 ”算法 的 全 局 收敛 性 


定理 1 假设 (了 ) 和 (已 ?) 成 立 ， 则 算法 1 或 有 限 步 终止 于 问题 (1) 的 稳定 点 ;或 产生 无 穷 
点 列 {zk}， 其 任意 育 点 都 是 问题 (1) 的 稳定 点 。 

证 明 若 g(zk) = 0， 则 zx 为 稳定 点 。 假 设 算法 1 产生 无 穷 点 列 {zk}，z* 为 其 任意 聚 点 ， 
则 存在 子 列 {zk :k eK}, KCÍL2,-b f lim zy — a". 下 面 分 两 种 情况 讨论 。 


€K,k— 


情况 1 inf os > 0. 由 (4) 式 和 引 理 1 ur Ag 


fk — fii > -pargi dy > p(l -— n)arligrll?. (5) 


因为 {fi} 单调 不 增 有 下 界 ， 故 { 灰 } 有 极限 。 由 (5) 式 知 lim axllgxl? 一 0， 故 


li a 2=0, 
| 


进而 由 nf oy > 0 可 知 "3 lg? = 0, BR 


i = 0. 
sem lol 


因为 ua jim zk 二 ZX*， 且 g(x) 连续， 所 以 g(z*) = 0， 故 知 z* 是 问题 (1) 的 稳定 点 。 
情况 2 inf os - 0。 由 inf ox 二 0 知 存在 子 列 N CK， 使 


lim ax=0, 
kc N,k—oo 
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故 知 存在 K > 0， 当 k EeE N 且 大 > 天 时 有 ak < 1， 进 而 可 知 axrB-! c {1,8,8 


令 a= akB8-!， 则 由 Armijo 搜 索 准 则 可 得 
fe — f(zk ouf d,) < -pabl gEdk, keN, k»K. 
对 不 等 式 (6) 的 左边 利用 中 值 定理 ， 则 存在 9 c (0,1), fi 
-akg-1lg(zk 十 gkakB-1dk) dy < -pap gdr, keN, k»K, 


从 而 知 
g(zk +0karb dr) dk > pgld&, keN, k»K. 
由 Cauchy-Schwartz 不 等 式 ， 引 理 1 及 (7) 式 可 知 


(9(z + OrQkB tdk) — gx)? dx 
idi 


à — p)(1 — n)llgkl? 
> a , kcN, k>K, 


llg(zx + OrorB™ dk) — gk|| 2 


从 而 由 引 理 2 知 
[ole + Oxop ide) - | > 00 — mee. keN, k»K. 


因为 {zk : k e K} 有 界 ，g(z) 连续 ， 故 {gxl| : k e KK} 有 界 ， 从 而 由 引 理 2 可 知 (Id. | 
KJER. XBDS, lim ax =0, 故 


lim axlladx|| = 0, 


kc N,k—oo 
从 而 由 (五 2) 和 (8) 式 知 ”lim ligi = 0。 因 为 
ke N,k—oo 
lm zy =z“ 
kc N,k—oo 


且 g(x) 连续 ， 所 以 有 g(x*) = 0， 故 知 z* 是 问题 (1) 的 稳定 点 。 


4 ”算法 的 线性 收敛 速率 


假设 : 
(Ha) f(x) 是 二 次 连续 可 微 的 一 致 是 函数 。 
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(6) 


(7) 


(8) 


:ke 


引 理 3[ # (Hs) RX, W f(c) 在 R^ 上 有 唯一 的 极 小 点 z*， 并 且 存 在 M > m > 0, fi 


M 
lel s f) - f") < Fle- zl, 
mlz — zl < llg(o < Miis — z*ll 
3|38 AU] 车 (H3) 成 立 ， 则 g(x) YEZK3ESE Lo 上 Lipschitz 连续 ， 即 存在 常数 L > 0， 使 


|lg(z) — gz< Lllz — vi; Yz, y € Lo. 


(9) 
(10) 
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定理 2 若 (H3) 成 立 ， {zk} 是 由 算法 1 产生 的 无 穷 点 列 ， 则 {zx} 至 少 线性 收 你 于 zx* 。 
证 明 若 axk = 1， 则 由 (5) 式 可 知 
fk — fiii 2 e — nlg h’ (11) 
车 ax < 1， 则 由 定理 1 的 证 明 过 程 可 知 ， 存 在 (0,1), fi 


llg(zx + 604,87! dk) 一 gkl| > eo me. (12) 


由 引 理 4 及 (12) 可 得 


E: , pcs par 
akl ! L||ds | > lg (zx + 0o. 8 ldk) - «|| > à - »à - mies 


工 十 97 
Sn (1— 9) — 9m lgl ., (1 — 9)1 — 9) 
— p)ü - 9 lox -p-n 
or > p gui Mal ^ EO + na a3) 
H (5) 式 和 (13) 式 可 得 
1- 1— 
fr — frti > eA (14) 
令 


-P-n 
w = min foa =n), e P 
则 由 0<p<1 4 <n<1TA0<w < 4. H (11) K (14) 4% fk- fria 2 vlgrll?« 
余下 的 证 明 类 似 于 文献 如 中 的 定理 3， 故 略 。 


5 ”数值 试验 


为 进一步 检验 算法 1 的 实 算 效 果 ， 我 们 选取 几 个 算 例 对 本 文 算法 进行 数值 试验 ， 并 
与 Armijo 搜 索 下 的 共 轿 梯度 法 和 最 速 下 降 法 进行 比较 。 用 工 表 示 算 法 的 迭代 次 数 ，NA 表 
示 本 文 提出 的 新 算法 ， 用 FR,PRP 和 HS 分 别 表示 FR,PRP 和 HS 共 轿 梯度 法 四 ，SM 表示 最 
EFE. SARA n= 0.88, p = 0.75, 8 = 0.5。 表 中 的 数字 为 迭代 中 的 目标 函数 值 ， 舍 入 
成 小 数 点 后 有 三 位 有 效 数字 ， 一 维 搜索 全 部 采用 Armijo 搜索 。 记 2.381x 105 为 2.381(5)，3.1x 
10-3 为 3.100(-3)， 其 余 同 。 计 算 结果 如 下 。 

例 1 f(z) = (z1 — z2)? + (z2 + z3 — 2)? + (z4 — 1}? + (z5 一 1)2，zo = (2,2,2,2,2)T, x* = 
(1,1,1,1,1)7, f*—0, AX 1. 


表 1: 例 1 计 和 工 结 果 的 比较 


IT NA FR PRP HS SM 
0 6.000(0) 6.000(0) 6.000(0) 6.000(0) 6.000(0) 
10 3.100(-3) 2.800(-3) 2.300(-3) 4.200(-3) 1.730(-2) 
20 1.965(-8) 3.092(-7) 7.365(-7) 1.252(-6) 1.082(-5) 
25 3.291(-11) 9.576(-9) 9.855(-9) 2.171(-8) 1.056(-8) 
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例 2 f(z) = (zl 二 10za)4+5(zs 一 Z4)4+(z2 一 2zs)4+10(zi 一 24)4 zo = (2,2, 一 2 一 2)7，z* = 
(0,0,0,0)7, f* = 0， 见 表 2。 


表 2: 例 2 计算 结果 的 比较 


IT NA FR PRP HS SM 

0 2.381(5) 2.381(5) 2.381(5) 2.381(5) 2.381(5) 
20 1.595(1) 1.362(2) 2.275(1) 2.791(1) 1.298(1) 
30 2.860(-2) 1.542(0) 1.719(-1) 3.130(-2) 1.444(-1) 
40 1.146(-4) 7.600(-3) 2.300(-3) 8.126(-5) 1.300(-3) 


例 3 f(z) -—(zi—1)?-(zi—22)? - (za — 1)? - (za - 1)* - (z5 —1)6, zo = (2, 2, 2, 2,2)7, z* = 
(1,1,1,1,1)7; f* 20, M33. 


À3 例 3 计算 结果 的 比较 


IT NA FR PRP HS SM 

0 4.000(0) 4.000(0) 4.000(0) 4.000(0) 4.000(0) 
10 3.360(-2) 1.200(-1) 1.650(-2) 1.380(-2) 1.090(-2) 
20 3.632(-4) 6.662(-4) 8.066(-4) 3.845(-4) 6.656(-4) 
30 9.628(-5) 1.434(-4) 2.185(-4) 2.523(-4) 2.810(-4) 


Bla. f(z) - (1-2: (121) Y (232 2505, zo — E 2* (37, 
i=1 
0， 见 表 4。 


表 4: 例 4 计 算 结 果 的 比较 


IT NA FR PRP HS SM 
0 3.320(2) 3.320(2) 3.320(2) 3.320(2) 3.320(2) 
20 6.189(-4) 1.020(-2) 4.070(-2) 8.300(-3) 1.050(-2) 
30 9.862(-7) 4.226(-4) 2.786(-4) 5.727(-6) 7.075(-5) 
50 1.738(-11) 7.345(-8) 2.537(-8) 5.205(-9) 1.042(-8) 


Bj5 扩展 Beale 函数 


n/2 

OL { [1.5 — zs a (1— 22))]^ + [2:25 - za (1 — 22] + [2.625 — z2i_1(1 一 z3)]^ h, 
i=1 

n22,4,..., zo=(2,---,2)7, z'—(3,05,...,3,05)7, f*=0, 
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表 5: 例 5 计算 结果 的 比较 (n = 80) 
IT NA FR PRP HS SM 
0 1.467(4) 1.467(4) 1.467(4) 1.467(4) 1.467(4) 
15 2.152(1) 2.727(1) 1.434(1) 2.293(1) 2.290(1) 
20 3.759(0) 1.509(1) 2.206(0) 6.286(0) 3.659(0) 
30 3.394(-1) 9.507(-1) 1.834(-1) 1.173(0) 3.075(-1) 
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A New Memory Gradient Method and its Convergence 


TANG Jing-yong!?, DONG Li! 
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2- Department of Mathematics, Shanghai Jiaotong University, Shanghai 200240) 


Abstract: The memory gradient methods for unconstrained optimization problems were investigated. 
A new algorithm is presented which uses the current and previous one-step iterative information to 
generate a decent direction, and uses an Armijo linear search to determine the step-size. The new 
method converges globally and it has a linear convergence rate under some mild conditions. Moreover, 


the method avoids the computation and storage of some matrices. It is suitable for solving large scale 


optimization problems. Experimental results show that the new method is efficient in practical com- 


putation. 
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